Scrapbox ChatGPT ConnectorとOmoikane Embedのデータ形式の比較
from 雑談ページ5
(他人由来のAIに自分の日記を見てもらうの流れで・・)
/villagepump/Scrapbox ChatGPT Connector#640d243f6eb4060000cda167を入れたいなnishio.icon
ちょっと形式違いません?何か処理すれば食えるのかなーと思ったけど試してないinajob.icon
ちょっと違うnishio.icon
えーと、多分当時はtextだけで、その後project, title, is_public, textに変わったんだな
無くてもよさそうなデータばかりだから、ちょっと直せば使えそうinajob.icon
タイトル情報がないから出典を示せないけどね、キーワードで検索すれば見つかるかもnishio.icon
titleは入ってそう?inajob.icon
https://github.com/nishio/scrapbox_chatgpt_connector/blob/main/make_index.py#L105
self.cache[body] = (embed_text(body), title)
EMBED_MAX_SIZEを超えた本文は無視してベクトル化されている
https://github.com/nishio/scrapbox_chatgpt_connector/blob/main/make_index.py#L29
Omoikane Embedの方はページを刻んで別のPointとしてベクトル化しているように見える
なるほど。ほとんどのページは収まるはず。Embedの方は長いものも捨てないで良いように刻むようにしたけどどちらがいいかはわからないnishio.icon
/nishio/Scrapboxのtoken/page
何だろうと思っていた、設計意図が聞けてよかったinajob.icon
思い出してきた、500トークンに刻んであれば7件くらいつんでも4000トークン未満に収まるだろ的な発想だnishio.icon
手元では対応したinajob.icon
井戸端に公開されている人のデータで遊んでいる